逆文档频率(常缩写为 IDF):信息检索与文本挖掘中的一个权重指标,用来衡量某个词在整个语料库中有多“稀有”。词越少见,IDF 通常越高;常用于 TF‑IDF 中,以降低常见词(如 the, is)的影响、突出更具区分度的词。(该术语在不同教材中公式可能略有变体。)
/ˈɪn.vɝːs ˈdɑː.kjə.mənt ˈfriː.kwən.si/
Inverse document frequency helps reduce the impact of very common words.
逆文档频率有助于降低非常常见词的影响。
In a TF‑IDF model, a term that appears in many documents receives a low inverse document frequency, so it contributes less to the final score.
在 TF‑IDF 模型中,一个词若出现在很多文档里,它的逆文档频率就会较低,因此对最终得分的贡献更小。
该术语由三部分组成:inverse(“反向的、倒数的”)+ document(“文档”)+ frequency(“频率”)。含义直观:不是看某词出现得多不多(频率),而是看它在多少文档中出现这一“文档频率”的反向/倒数意义,以强调稀有词的区分能力。该概念在信息检索领域早期研究中被系统化,用于改进关键词检索与相关性排序。